{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "initial_id",
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    ""
   ]
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": [
    "# 向量数据库的使用\n",
    "\n",
    "## 1、数据的存储\n",
    "\n",
    "\n"
   ],
   "id": "5f9d23debe21d426"
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-08-06T06:18:35.293176Z",
     "start_time": "2025-08-06T06:18:33.909902Z"
    }
   },
   "cell_type": "code",
   "source": [
    "import os\n",
    "import dotenv\n",
    "from langchain_text_splitters import CharacterTextSplitter\n",
    "from langchain_community.vectorstores import Chroma\n",
    "from langchain_community.document_loaders import TextLoader\n",
    "from langchain_openai import OpenAIEmbeddings\n",
    "\n",
    "# 举例：将分割后的文本，使用 OpenAI 嵌入模型获取嵌入向量，并存储在 Chroma 中\n",
    "\n",
    "# 获取嵌入模型\n",
    "dotenv.load_dotenv()\n",
    "\n",
    "os.environ['OPENAI_API_KEY'] = os.getenv(\"OPENAI_API_KEY1\")\n",
    "os.environ['OPENAI_BASE_URL'] = os.getenv(\"OPENAI_BASE_URL\")\n",
    "my_embedding = OpenAIEmbeddings(model=\"text-embedding-ada-002\")\n",
    "\n",
    "#创建文档加载器，并加载指定目录的文件。返回的list[Document]\n",
    "loader = TextLoader(\"./asset/load/09-ai1.txt\", encoding='utf-8')\n",
    "documents = loader.load()\n",
    "\n",
    "# 获取文档切分器\n",
    "text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100)\n",
    "# 切分文档，得到list[Document]\n",
    "docs = text_splitter.split_documents(documents)\n",
    "\n",
    "# 使用Chroma数据库将向量化以后的数据进行存储（此时存储在内存中）\n",
    "db = Chroma.from_documents(docs, my_embedding)\n",
    "\n",
    "#\n",
    "query = \"人工智能的核心技术都有啥？\"\n",
    "docs = db.similarity_search(query)\n",
    "print(docs[0].page_content)"
   ],
   "id": "a671fcccad1aef7a",
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "3. 人工智能的核心技术\n",
      "3.1 机器学习\n",
      "机器学习是人工智能的核心技术之一，通过算法使计算机从数据中学习并做出决策。常见的机器学习算法包括监督学习、无监督学习和强化学习。监督学习通过标记数据进行训练，无监督学习则从未标记数据中寻找模式，强化学习则通过与环境交互来优化决策。\n",
      "3.2 深度学习\n",
      "深度学习是机器学习的一个子领域，通过多层神经网络进行特征提取和模式识别。深度学习在图像识别、自然语言处理、语音识别等领域取得了显著成果。常见的深度学习模型包括卷积神经网络（CNN）、循环神经网络（RNN）和长短期记忆网络（LSTM）。\n",
      "3.3 自然语言处理\n",
      "自然语言处理（NLP）是人工智能的一个重要分支，致力于使计算机能够理解和生成人类语言。NLP技术广泛应用于机器翻译、情感分析、文本分类等领域。近年来，基于深度学习的NLP模型（如BERT、GPT）在语言理解任务中取得了突破性进展。\n",
      "3.4 计算机视觉\n",
      "计算机视觉是人工智能的另一个重要分支，致力于使计算机能够理解和处理图像和视频。计算机视觉技术广泛应用于图像识别、目标检测、人脸识别等领域。深度学习模型（如CNN）在计算机视觉任务中取得了显著成果。\n",
      "\n",
      "4. 人工智能的应用领域\n",
      "4.1 医疗健康\n",
      "人工智能在医疗健康领域的应用包括疾病诊断、药物研发、个性化医疗等。通过分析医学影像和患者数据，人工智能可以帮助医生更准确地诊断疾病，提高治疗效果。\n",
      "4.2 金融\n",
      "人工智能在金融领域的应用包括风险评估、欺诈检测、算法交易等。通过分析市场数据和交易记录，人工智能可以帮助金融机构做出更明智的决策，提高运营效率。\n",
      "4.3 教育\n",
      "人工智能在教育领域的应用包括个性化学习、智能辅导、自动评分等。通过分析学生的学习数据，人工智能可以为学生提供个性化的学习建议，提高学习效果。\n",
      "4.4 交通\n",
      "人工智能在交通领域的应用包括自动驾驶、交通管理、智能导航等。通过分析交通数据和路况信息，人工智能可以帮助优化交通流量，提高交通安全。\n"
     ]
    }
   ],
   "execution_count": 3
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": [
    "这里我们使用的是Chroma向量数据库，当我们没有显式的指明存储位置时，默认存储在内存中。\n",
    "\n",
    "当然，我们也可以通过指定参数：persist_directory，指明具体的本地的存储的路径。"
   ],
   "id": "5b43a459cb0c1438"
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-08-06T06:56:17.982223Z",
     "start_time": "2025-08-06T06:56:15.977165Z"
    }
   },
   "cell_type": "code",
   "source": [
    "from langchain.text_splitter import CharacterTextSplitter\n",
    "from langchain_community.document_loaders import CSVLoader\n",
    "from langchain_openai import OpenAIEmbeddings\n",
    "from langchain_chroma import Chroma\n",
    "\n",
    "import os\n",
    "import dotenv\n",
    "\n",
    "dotenv.load_dotenv()\n",
    "os.environ['OPENAI_API_KEY'] = os.getenv(\"OPENAI_API_KEY1\")\n",
    "os.environ['OPENAI_BASE_URL'] = os.getenv(\"OPENAI_BASE_URL\")\n",
    "\n",
    "# 获取嵌入模型\n",
    "embeddings = OpenAIEmbeddings(model=\"text-embedding-ada-002\")\n",
    "\n",
    "# 加载文档\n",
    "loader = CSVLoader(\"./asset/load/04-load.csv\", encoding='utf-8')\n",
    "pages = loader.load_and_split()\n",
    "print(len(pages))  # 4\n",
    "\n",
    "# 文本拆分\n",
    "text_spliter = CharacterTextSplitter.from_tiktoken_encoder(chunk_size=500)\n",
    "docs = text_spliter.split_documents(pages)\n",
    "\n",
    "# 向量存储\n",
    "db_path = './chroma_db'\n",
    "db = Chroma.from_documents(docs, embeddings, persist_directory=db_path)"
   ],
   "id": "739ba8f76ffb2b5",
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "4\n"
     ]
    }
   ],
   "execution_count": 2
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": [
    "## 2、数据的检索\n",
    "\n",
    "前置代码："
   ],
   "id": "804417e66c530df5"
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-08-06T06:56:22.810250Z",
     "start_time": "2025-08-06T06:56:19.996998Z"
    }
   },
   "cell_type": "code",
   "source": [
    "# 1.导入相关依赖\n",
    "from langchain_chroma import Chroma\n",
    "from langchain_core.documents import Document\n",
    "from langchain_openai import OpenAIEmbeddings\n",
    "\n",
    "# 2.定义文档\n",
    "raw_documents = [\n",
    "    Document(\n",
    "        page_content=\"葡萄是一种常见的水果，属于葡萄科葡萄属植物。它的果实呈圆形或椭圆形，颜色有绿色、紫色、红色等多种。葡萄富含维生素C和抗氧化物质，可以直接食用或酿造成葡萄酒。\",\n",
    "        metadata={\"source\": \"水果\", \"type\": \"植物\"}\n",
    "    ),\n",
    "    Document(\n",
    "        page_content=\"白菜是十字花科蔬菜，原产于中国北方。它的叶片层层包裹形成紧密的球状，口感清脆微甜。白菜富含膳食纤维和维生素K，常用于制作泡菜、炒菜或煮汤。\",\n",
    "        metadata={\"source\": \"蔬菜\", \"type\": \"植物\"}\n",
    "    ),\n",
    "    Document(\n",
    "        page_content=\"狗是人类最早驯化的动物之一，属于犬科。它们具有高度社会性，能理解人类情绪，常被用作宠物、导盲犬或警犬。不同品种的狗在体型、毛色和性格上有很大差异。\",\n",
    "        metadata={\"source\": \"动物\", \"type\": \"哺乳动物\"}\n",
    "    ),\n",
    "    Document(\n",
    "        page_content=\"猫是小型肉食性哺乳动物，性格独立但也能与人类建立亲密关系。它们夜视能力极强，擅长捕猎老鼠。家猫的品种包括波斯猫、暹罗猫等，毛色和花纹多样。\",\n",
    "        metadata={\"source\": \"动物\", \"type\": \"哺乳动物\"}\n",
    "    ),\n",
    "    Document(\n",
    "        page_content=\"人类是地球上最具智慧的生物，属于灵长目人科。现代人类（智人）拥有高度发达的大脑，创造了语言、工具和文明。人类的平均寿命约70-80年，分布在全球各地。\",\n",
    "        metadata={\"source\": \"生物\", \"type\": \"灵长类\"}\n",
    "    ),\n",
    "    Document(\n",
    "        page_content=\"太阳是太阳系的中心恒星，直径约139万公里，主要由氢和氦组成。它通过核聚变反应产生能量，为地球提供光和热。太阳活动周期约为11年，会影响地球气候。\",\n",
    "        metadata={\"source\": \"天文\", \"type\": \"恒星\"}\n",
    "    ),\n",
    "    Document(\n",
    "        page_content=\"长城是中国古代的军事防御工程，总长度超过2万公里。它始建于春秋战国时期，秦朝连接各段，明朝大规模重修。长城是世界文化遗产和人类建筑奇迹。\",\n",
    "        metadata={\"source\": \"历史\", \"type\": \"建筑\"}\n",
    "    ),\n",
    "    Document(\n",
    "        page_content=\"量子力学是研究微观粒子运动规律的物理学分支。它提出了波粒二象性、测不准原理等概念，彻底改变了人类对物质世界的认知。量子计算机正是基于这一理论发展而来。\",\n",
    "        metadata={\"source\": \"物理\", \"type\": \"科学\"}\n",
    "    ),\n",
    "    Document(\n",
    "        page_content=\"《红楼梦》是中国古典文学四大名著之一，作者曹雪芹。小说以贾、史、王、薛四大家族的兴衰为背景，描绘了贾宝玉与林黛玉的爱情悲剧，反映了封建社会的种种矛盾。\",\n",
    "        metadata={\"source\": \"文学\", \"type\": \"小说\"}\n",
    "    ),\n",
    "    Document(\n",
    "        page_content=\"新冠病毒（SARS-CoV-2）是一种可引起呼吸道疾病的冠状病毒。它通过飞沫传播，主要症状包括发热、咳嗽、乏力。疫苗和戴口罩是有效的预防措施。\",\n",
    "        metadata={\"source\": \"医学\", \"type\": \"病毒\"}\n",
    "    )\n",
    "]\n",
    "# 3. 创建嵌入模型\n",
    "embedding = OpenAIEmbeddings() #默认模型：\"text-embedding-ada-002\"\n",
    "\n",
    "# 4.创建向量数据库\n",
    "db = Chroma.from_documents(\n",
    "    documents=raw_documents,\n",
    "    embedding=embedding\n",
    ")"
   ],
   "id": "fbaf1778d55279a2",
   "outputs": [],
   "execution_count": 3
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": [
    "## 1、检索方式1：相似性检索（similarity_search）\n",
    "\n"
   ],
   "id": "beb8abc060391751"
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-08-06T06:56:26.143859Z",
     "start_time": "2025-08-06T06:56:25.551318Z"
    }
   },
   "cell_type": "code",
   "source": [
    "# 5. 检索示例（返回前3个最相关结果）\n",
    "query = \"哺乳动物\"\n",
    "docs = db.similarity_search(query, k=3)  # k=3表示返回3个最相关文档\n",
    "print(f\"查询: '{query}' 的结果:\")\n",
    "for i, doc in enumerate(docs, 1):\n",
    "    print(f\"\\n结果 {i}:\")\n",
    "    print(f\"内容: {doc.page_content}\")\n",
    "    print(f\"元数据: {doc.metadata}\")"
   ],
   "id": "806e65134676ed99",
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "查询: '哺乳动物' 的结果:\n",
      "\n",
      "结果 1:\n",
      "内容: 猫是小型肉食性哺乳动物，性格独立但也能与人类建立亲密关系。它们夜视能力极强，擅长捕猎老鼠。家猫的品种包括波斯猫、暹罗猫等，毛色和花纹多样。\n",
      "元数据: {'source': '动物', 'type': '哺乳动物'}\n",
      "\n",
      "结果 2:\n",
      "内容: 狗是人类最早驯化的动物之一，属于犬科。它们具有高度社会性，能理解人类情绪，常被用作宠物、导盲犬或警犬。不同品种的狗在体型、毛色和性格上有很大差异。\n",
      "元数据: {'type': '哺乳动物', 'source': '动物'}\n",
      "\n",
      "结果 3:\n",
      "内容: 人类是地球上最具智慧的生物，属于灵长目人科。现代人类（智人）拥有高度发达的大脑，创造了语言、工具和文明。人类的平均寿命约70-80年，分布在全球各地。\n",
      "元数据: {'type': '灵长类', 'source': '生物'}\n"
     ]
    }
   ],
   "execution_count": 4
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": "## 2、支持直接对问题向量查询（similarity_search_by_vector）\n",
   "id": "42ac97e2f302694f"
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-08-06T06:56:36.826018Z",
     "start_time": "2025-08-06T06:56:35.956036Z"
    }
   },
   "cell_type": "code",
   "source": [
    "query = \"哺乳动物\"\n",
    "embedding_vector = embedding.embed_query(query)\n",
    "\n",
    "docs = db.similarity_search_by_vector(embedding_vector, k=3)\n",
    "\n",
    "print(f\"查询: '{query}' 的结果:\")\n",
    "for i, doc in enumerate(docs, 1):\n",
    "    print(f\"\\n结果 {i}:\")\n",
    "    print(f\"内容: {doc.page_content}\")\n",
    "    print(f\"元数据: {doc.metadata}\")"
   ],
   "id": "7d370fd3c654c2b4",
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "查询: '哺乳动物' 的结果:\n",
      "\n",
      "结果 1:\n",
      "内容: 猫是小型肉食性哺乳动物，性格独立但也能与人类建立亲密关系。它们夜视能力极强，擅长捕猎老鼠。家猫的品种包括波斯猫、暹罗猫等，毛色和花纹多样。\n",
      "元数据: {'source': '动物', 'type': '哺乳动物'}\n",
      "\n",
      "结果 2:\n",
      "内容: 狗是人类最早驯化的动物之一，属于犬科。它们具有高度社会性，能理解人类情绪，常被用作宠物、导盲犬或警犬。不同品种的狗在体型、毛色和性格上有很大差异。\n",
      "元数据: {'source': '动物', 'type': '哺乳动物'}\n",
      "\n",
      "结果 3:\n",
      "内容: 人类是地球上最具智慧的生物，属于灵长目人科。现代人类（智人）拥有高度发达的大脑，创造了语言、工具和文明。人类的平均寿命约70-80年，分布在全球各地。\n",
      "元数据: {'type': '灵长类', 'source': '生物'}\n"
     ]
    }
   ],
   "execution_count": 5
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": [
    "## 3、 相似性检索，支持过滤元数据（filter）\n",
    "\n"
   ],
   "id": "a4bda980b9a807a"
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-08-06T06:56:40.089048Z",
     "start_time": "2025-08-06T06:56:39.682949Z"
    }
   },
   "cell_type": "code",
   "source": [
    "query = \"哺乳动物\"\n",
    "\n",
    "docs = db.similarity_search(\n",
    "    query=query,\n",
    "    k=3,\n",
    "    filter={\"source\": \"动物\"})\n",
    "\n",
    "for i, doc in enumerate(docs, 1):\n",
    "    print(f\"\\n结果 {i}:\")\n",
    "    print(f\"内容: {doc.page_content}\")\n",
    "    print(f\"元数据: {doc.metadata}\")"
   ],
   "id": "29f30bd9627b625d",
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\n",
      "结果 1:\n",
      "内容: 猫是小型肉食性哺乳动物，性格独立但也能与人类建立亲密关系。它们夜视能力极强，擅长捕猎老鼠。家猫的品种包括波斯猫、暹罗猫等，毛色和花纹多样。\n",
      "元数据: {'type': '哺乳动物', 'source': '动物'}\n",
      "\n",
      "结果 2:\n",
      "内容: 狗是人类最早驯化的动物之一，属于犬科。它们具有高度社会性，能理解人类情绪，常被用作宠物、导盲犬或警犬。不同品种的狗在体型、毛色和性格上有很大差异。\n",
      "元数据: {'source': '动物', 'type': '哺乳动物'}\n"
     ]
    }
   ],
   "execution_count": 6
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": [
    "## 4、通过L2距离分数进行搜索（similarity_search_with_score）\n",
    "\n",
    "`注意：`分数值越小，检索到的文档越和问题相似。分值取值范围：[0，正无穷]"
   ],
   "id": "947516dc8fe83b63"
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-08-06T06:56:48.487013Z",
     "start_time": "2025-08-06T06:56:47.741852Z"
    }
   },
   "cell_type": "code",
   "source": [
    "docs = db.similarity_search_with_score(\n",
    "    \"量子力学是什么?\"\n",
    ")\n",
    "for doc, score in docs:\n",
    "    print(f\" [L2距离得分={score:.3f}] {doc.page_content} [{doc.metadata}]\")"
   ],
   "id": "a4ae554600205c99",
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      " [L2距离得分=0.182] 量子力学是研究微观粒子运动规律的物理学分支。它提出了波粒二象性、测不准原理等概念，彻底改变了人类对物质世界的认知。量子计算机正是基于这一理论发展而来。 [{'type': '科学', 'source': '物理'}]\n",
      " [L2距离得分=0.447] 太阳是太阳系的中心恒星，直径约139万公里，主要由氢和氦组成。它通过核聚变反应产生能量，为地球提供光和热。太阳活动周期约为11年，会影响地球气候。 [{'source': '天文', 'type': '恒星'}]\n",
      " [L2距离得分=0.463] 人类是地球上最具智慧的生物，属于灵长目人科。现代人类（智人）拥有高度发达的大脑，创造了语言、工具和文明。人类的平均寿命约70-80年，分布在全球各地。 [{'type': '灵长类', 'source': '生物'}]\n",
      " [L2距离得分=0.488] 新冠病毒（SARS-CoV-2）是一种可引起呼吸道疾病的冠状病毒。它通过飞沫传播，主要症状包括发热、咳嗽、乏力。疫苗和戴口罩是有效的预防措施。 [{'source': '医学', 'type': '病毒'}]\n"
     ]
    }
   ],
   "execution_count": 7
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": [
    "## 5、通过余弦相似度分数进行搜索（_similarity_search_with_relevance_scores）\n",
    "\n",
    "`注意：`分数值越接近1（上限），检索到的文档越和问题相似。"
   ],
   "id": "f79efc424d9b1784"
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-08-06T06:57:02.007565Z",
     "start_time": "2025-08-06T06:57:00.655070Z"
    }
   },
   "cell_type": "code",
   "source": [
    "docs = db._similarity_search_with_relevance_scores(\n",
    "    \"量子力学是什么?\"\n",
    ")\n",
    "for doc, score in docs:\n",
    "    print(f\"* [余弦相似度得分={score:.3f}] {doc.page_content} [{doc.metadata}]\")"
   ],
   "id": "ef2c97c8f34957ae",
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "* [余弦相似度得分=0.871] 量子力学是研究微观粒子运动规律的物理学分支。它提出了波粒二象性、测不准原理等概念，彻底改变了人类对物质世界的认知。量子计算机正是基于这一理论发展而来。 [{'type': '科学', 'source': '物理'}]\n",
      "* [余弦相似度得分=0.684] 太阳是太阳系的中心恒星，直径约139万公里，主要由氢和氦组成。它通过核聚变反应产生能量，为地球提供光和热。太阳活动周期约为11年，会影响地球气候。 [{'source': '天文', 'type': '恒星'}]\n",
      "* [余弦相似度得分=0.672] 人类是地球上最具智慧的生物，属于灵长目人科。现代人类（智人）拥有高度发达的大脑，创造了语言、工具和文明。人类的平均寿命约70-80年，分布在全球各地。 [{'type': '灵长类', 'source': '生物'}]\n",
      "* [余弦相似度得分=0.655] 新冠病毒（SARS-CoV-2）是一种可引起呼吸道疾病的冠状病毒。它通过飞沫传播，主要症状包括发热、咳嗽、乏力。疫苗和戴口罩是有效的预防措施。 [{'type': '病毒', 'source': '医学'}]\n"
     ]
    }
   ],
   "execution_count": 8
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": "## 6、MMR（最大边际相关性，max_marginal_relevance_search）",
   "id": "c1cc4e9373445361"
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-08-06T06:57:17.737020Z",
     "start_time": "2025-08-06T06:57:16.860153Z"
    }
   },
   "cell_type": "code",
   "source": [
    "docs = db.max_marginal_relevance_search(\n",
    "    query=\"量子力学是什么\",\n",
    "    lambda_mult=0.8,  # 侧重相似性。范围是[0,1],越接近于1，越体现相似性；越接近于0，体现多样性\n",
    ")\n",
    "\n",
    "print(\"🔍 关于【量子力学是什么】的搜索结果：\")\n",
    "print(\"=\" * 50)\n",
    "for i, doc in enumerate(docs):\n",
    "    print(f\"\\n📖 结果 {i+1}:\")\n",
    "    print(f\"📌 内容: {doc.page_content}\")\n",
    "    print(f\"🏷️ 标签: {', '.join(f'{k}={v}' for k, v in doc.metadata.items())}\")"
   ],
   "id": "8a3b349de2de5f34",
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "🔍 关于【量子力学是什么】的搜索结果：\n",
      "==================================================\n",
      "\n",
      "📖 结果 1:\n",
      "📌 内容: 量子力学是研究微观粒子运动规律的物理学分支。它提出了波粒二象性、测不准原理等概念，彻底改变了人类对物质世界的认知。量子计算机正是基于这一理论发展而来。\n",
      "🏷️ 标签: type=科学, source=物理\n",
      "\n",
      "📖 结果 2:\n",
      "📌 内容: 太阳是太阳系的中心恒星，直径约139万公里，主要由氢和氦组成。它通过核聚变反应产生能量，为地球提供光和热。太阳活动周期约为11年，会影响地球气候。\n",
      "🏷️ 标签: type=恒星, source=天文\n",
      "\n",
      "📖 结果 3:\n",
      "📌 内容: 人类是地球上最具智慧的生物，属于灵长目人科。现代人类（智人）拥有高度发达的大脑，创造了语言、工具和文明。人类的平均寿命约70-80年，分布在全球各地。\n",
      "🏷️ 标签: type=灵长类, source=生物\n",
      "\n",
      "📖 结果 4:\n",
      "📌 内容: 新冠病毒（SARS-CoV-2）是一种可引起呼吸道疾病的冠状病毒。它通过飞沫传播，主要症状包括发热、咳嗽、乏力。疫苗和戴口罩是有效的预防措施。\n",
      "🏷️ 标签: type=病毒, source=医学\n"
     ]
    }
   ],
   "execution_count": 9
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 2
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython2",
   "version": "2.7.6"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
